Nouvelle livraison du serial MOOCer (Sébastien Beaune) qui a testé “The analytics Edge”, un MOOC sur la science et l’analyse des données, l’apprentissage automatique (Machine Learning) proposé par le MIT… L’occasion, pour Sébastien, de revenir sur la pédagogie MOOC.
Le MOOC “The analytics Edge” est signé du Docteur Dimitri Bertsimas, professeur en recherche opérationnelle au Massachusetts Institute of Technology (MIT). Conformité, d’emblée, à cette caractéristique “canonique” de l’approche MOOC, et l'on se demande quels organismes de formation seraient à même d’offrir ce niveau de signature… (poser la question c’est y répondre).
En deux mots, ce MOOC illustre, à travers des histoires inspirantes, comment l'utilisation de méthodes d'analyse de données interagit avec notre vie. C’est que la dernière décennie a vu une montée en puissance sans précédent des “data” et de leur impact sur nos sociétés - transformation de la façon dont on commerce, transformation de nos interactions sociales, du travail, de la façon dont on se soigne… Au programme du MOOC “The analytics Edge”, donc : la science et l’analyse des données, le Machine Learning (l’apprentissage automatique), les régressions linéaires ou logistiques, les “Arbres”, l’analyse de texte, le clustering, la visualisation, l’optimisation, etc. Il s’agit de savoir comment on peut construire des modèles de données et faire des prévisions sur l’avenir. Un cours disponible sur EDX, un leader mondial des plateformes MOOC, et qui permet au MIT de frapper un grand coup : le contenu du MOOC est identique à celui enseigné “officiellement” dans cette même université.
Pratiquement : 7 semaines pour se familiariser avec R (un logiciel libre de traitement des données et d'analyse statistique), sa syntaxe de programmation liée à l’analyse de modèles de données et sa représentation visuelle des informations. 2 autres semaines pour calculer des optimisations linéaires sur divers tableurs (Excel, Libre Office, Google Sheet). Des semaines toutes découpées en 4 parties :
1/ Introduction théorique d’un modèle statistique particulier (1 à 2 heures) ; 2/ Redite simplifiée de la théorie et application à un cas concret (1 à 2 heures) ; 3/ Démonstration d’un cas concret (appelée “récitation”(1 heure)) en guise de préparation à la partie 4/ composée d’exercices (2 à 3 heures). Ce découpage pédagogique permet de dériver doucement de la théorie à la pratique, à travers la partie 2/ en particulier, qui est souvent le chaînon manquant dans l’apprentissage des “hard skills”.
Autre innovation : la compétition d’analyse des données qui s’est déroulée sur 2 semaines, sur Kaggle, un site bien connu des spécialistes. L’objectif était de trouver le meilleur modèle prévisionnel des résultats d’une élection à venir, à partir d’un questionnaire initialement (mal) rempli par des électeurs. Application concrète du cours, donc, et très instructive, intensité de la compétition, quantité et qualité des échanges sur les forums apprenants (toujours sous l’œil vigilant des community managers) : autant d’éléments venant conforter l’engagement des participants.
L’évaluation de la formation a été partiellement effectuée (10% de la note finale) à l’aide de questions de compréhension suivant chaque vidéo attachées aux parties 1 et 2. La partie 4/ comportait des travaux pratiques pouvant aller jusqu’à 5 cas différents, chacun proposant un sujet particulier avec un jeu de données qui devait servir à la construction d’un modèle et à l’analyse de données (50% de la note finale). 15% de la note était glané sous forme de points dans la compétition évoquée plus haut. Le reste - 25% - était délivré en dernière semaine dans l’examen final calqué sur le principe des travaux pratiques de la partie 4/ mais cette fois sans orientation pédagogique, la difficulté de cet examen final ayant permis de montrer en creux à quel point l’accompagnement des exercices précédents avait été de qualité.
Qualité visuelle des vidéos, aussi, malgré parfois des problèmes de son (faible ou grésillant) qui ont soulevé de nombreuses plaintes. Des vidéos sous-titrées en anglais, téléchargeables, accompagnées de leur jeu de PowerPoint. Rien à reprocher au niveau de détail des cas pratiques ni de leur bon phasage avec l’actualité. Le cas, par exemple, avec Moneyball, où comment les statistiques ont permis à une équipe de baseball d’améliorer ses performances (Cf. le film « Le stratège »), ou bien avec eHarmony, un site de rencontre à l’origine de presque 5% des mariages aux Etats-Unis en 2010 ! Sans oublier Netflix et son système de suggestions aux clients. Des exemples parmi d’autres.
Bilan : un niveau conséquent supposant un important investissement temps de 10 heures environ par semaine, durant 12 semaines. Mais un effort dont on sort grandi d’une véritable compétence / expérience sur le monde actuel. Le certificat de réussite, si on obtient 55% de la note finale, est payant, 99$. Il n’y a pas d’attestation de suivi, la plateforme EDX s’orientant à présent sur des certificats payants. Cependant, la grande qualité pédagogique de ce cours, sa profondeur et son intensité valent ce montant. Combien d’apprenants ont obtenu le certificat ? Cette information n’est pas communiquée, mais on peut se faire une idée de l’intérêt soulevé par “The analytics Edge”, à travers les 3000 participants à la compétition kaggle (8ème semaine de cours) !
Sébastien Beaune, serial MOOCer
|